基於音段式LMR 對映之語音轉換方法的改進 (Improving of Segmental LMR-Mapping Based Voice Conversion Methods) [In Chinese]

نویسندگان

  • Hung-Yan Gu
  • Jia-Wei Chang
چکیده

把一個來源語者(source speaker)的語音轉換成另一個目標語者(target speaker)的語音,這 種處理稱為語音轉換(voice conversion)[1, 2, 3],語音轉換可應用於銜接語音合成處理, 以獲得多樣性的合成語音音色。去年我們曾嘗試以線性多變量迴歸(linear multivariate regression, LMR)來建構一種頻譜對映(mapping)的機制[4],然後用於作語音轉換,希望 藉以改進傳統上基於高斯混合模型(Gaussian mixture model, GMM)之頻譜對映機制[3] 常遇到的一個問題,就是轉換出的頻譜包絡(spectral envelope)會發生過度平滑(over smoothing)的現象。我們經由實驗發現,音段式(segmental) LMR 頻譜對映機制不僅在平 均轉換誤差上可以比傳統 GMM 頻譜對映機制獲得一些改進,並且轉換出語音的音質也 Proceedings of the Twenty-Fifth Conference on Computational Linguistics and Speech Processing (ROCLING 2013)

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

整合邊際資訊於鑑別式聲學模型訓練方法之比較研究 (A Comparative Study on Margin-Based Discriminative Training of Acoustic Models) [In Chinese]

鑑別式聲學模型訓練在近代自動語音辨識(Automatic Speech Recognition, ASR)中扮演 重要的角色。在許多基於不同思維且能有效地提昇辨識率的鑑別式聲學模型訓練方法陸 續被提出後,對於訓練方法的相關推廣與改進便如雨後春筍般地興起;而這些方法在本 質上,皆是在描述訓練語句與語音辨識器所產生對應詞圖(Word Graph)之間的關係。本 論文首先將統整與歸納近年來所發展的多種鑑別式聲學模型訓練方法,並以三種最具代 表性鑑別式訓練方法:最小化分類錯誤(Minimum Classification Error, MCE)、最大化交 互資訊(Maximum Mutual Information, MMI)、最小化音素錯誤(Minimum Phone Error, MPE)為範例,透過有系統地轉換與化解方程式,得到聲學模型訓練準則的共通表示函 數型態。我們可以發現到,對於...

متن کامل

強健性語音辨識中分頻段調變頻譜補償之研究 (A Study of Sub-band Modulation Spectrum Compensation for Robust Speech Recognition) [In Chinese]

雖然語音科技進步迅速,但自動語音辨識仍是一門值得繼續研究開發的課題。因為 目前多數的語音辨識系統應用於不受干擾的安靜環境,雖然能得到相當滿意的辨識效 果,但若將其應用於實際的環境中,語音訊號往往會因為環境雜訊的影響,導致辨識效 能有明顯地衰減,發展多年的強健性技術即是針對此項缺點作改進。 在諸多強健性技術中,有一類方法為對語音特徵作統計上的正規化,傳統上, 這些方法都是對全頻段的語音特徵時間序列做正規化處理,然而,在分析此類方法的效 能上,通常是以其調變頻譜的正規化程度作為效能的依據,因此,如果直接在語音特徵 之調變頻譜上作正規化,應亦可達到不錯的效果。另外,由於不同頻率的調變頻率成 份具有不相等的重要性,但是傳統之特徵時間序列正規化法相對忽略了此性質,基於這 些觀察,在本論文中,我們提出了一系列的分頻段調變頻譜統計正規化法,此類方法可 以分別正規化不同頻段的統計特性,進而提升語音特...

متن کامل

基於HNM 之國語音節信號的合成方法 (An HNM Based Method for Synthesizing Mandarin Syllable Signal) [In Chinese]

本文提出一個基於 HNM (Harmonic-plus-noise model) 的國語音節信號的合成方法,使 用此方法時,一種音節只需錄、存一遍發音,就可用以合成多種韻律特性的發音,並且 不易查覺出信號品質的衰退。在這個方法裡,一個欲合成的音節的音長,首先被分割成 它的組成音素的音長,依據原始和合成音節裡各音素的音長,可建造一個片斷線性的時 間對映函數,如此合成音節時間軸上的一個控制點,就可經由對映至原始音節上找出和 它對應的兩個音框。然後依據兩音框的 HNM參數作時間上的內差,再進一步在音色一 致性的條件下作基週軌跡調整的內差,來求得該控制點上的 HNM參數。當各個控制點 上的 HNM參數值都決定之後,就可使用我們重新公式化的 HNM合成公式,來計算出 各個信號樣本的值。接著我們作聽測實驗來評估合成語音的清晰度,初步結果顯示,本 文所提的 HNM擴充的方法所合成出的信號,非常清晰...

متن کامل

結合HMM 頻譜模型與ANN 韻律模型之國語語音合成系統 (A Mandarin Speech Synthesis System Combining HMM Spectrum Model and ANN Prosody Model) [In Chinese]

本論文研究了一種結合 HMM (hidden Markov model)頻譜模型與 ANN (articifical neural network )韻律模型的國語語音合成系統。在訓練階段,對各個訓練語料音框算出 DCC係數(discrete cepstrum coefficients),以作為頻譜特徵參數,接著對於一種音節的多 個發音,依 DTW (dynamic time warping)匹配出的頻譜演進路徑作分群,各群建立一個 HMM,並記錄各音節發音的文依性資訊。在合成階段,首先依據文依性資訊挑選出輸 入文句各音節的 HMM模型,接著判定音節 HMM的各個狀態為無聲、或有聲,然後使 用音長 ANN模型及狀態平均音長來決定 HMM各狀態應該產生的音框數。除了前人提 出的MLE(maximum likelihood estimate)法,我們另外研究二種內插方法來產生各音框的 D...

متن کامل

進階式調變頻譜補償法於強健性語音辨識之研究 (Advanced Modulation Spectrum Compensation Techniques for Robust Speech Recognition) [In Chinese]

在各種環境強健性技術中,有一類技術為對語音特徵的調變頻譜作統計上的正規化, 而 在先前這一類技術的研究裡,若對分頻段的頻譜做正規化處理,相對於全頻帶正規化的 處理法有較好的強健性效能,但其中由於不等切的切割方式,將調變頻譜中低頻部份分 的比較細,導致低頻範圍的子頻段,會有頻譜點數不足的問題,影響到我們計算其頻譜 特徵統計值的精確度,因此這些方法應有改進的空間。基於此觀察,本論文提出一系列 重疊式分頻段調變頻譜統計正規化法,此類方法可以有效提升子頻段中用以計算統計值 的頻譜點數,提升統計值的精確度,進而改善分頻段統計正規化法的效能,可以使所得 特徵在環境強健性上的效能更為優越。 本論文採用國際通用的 AURORA-2 連續數字語料庫作一系列的語音辨識實驗,由實驗 結果可明確驗證,我們提出的重疊式分頻段方法比起傳統非重疊式分頻段的方法更能有 效地提升各種雜訊環境下的辨識精確率。此外,我們...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2013